Карань Анна студентка факультета биоинженерии и бионформатики
|
EMBOSS: пакет программ для анализа последовательностей
Задание 1
В этом задании необходимо освоить несколько команд пакета, предоставить исходные данные и результат.
1) C использованием команды seqret нужно получать единый fasta файл, соединенный из нескольких
последовательностей.
Имена интересующих файлов
seqret @genome.txt seqret_1.fasta
|
Файл со всеми последовательностями
2) C использованием команды seqretsplit необходимо разделить один файл с
несколькими последовательностями
seqretsplit seqret_1.fasta -auto
|
Полученные файлы:x65923, x65924, x65925,
x65926, x65927.
3) С помощью команды seqret здесь необходимо из файла с хромосомой в формате .gb вырезать три кодирующих
последовательности по указанным координатам "от", "до", "ориентация" и сохранить
в одном fasta файле.
Последовательность хромосомы .
seqret @cod.txt cod_arab.fasta
|
В файле написаны границы кодирующих областей.
В результаты получен следующий файл.
4) С помощью команды transeq здесь необходимо транслировать кодирующие последовательности,
лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода.
Одна из последовательностей, полученной во 2 пункте, была транслирована с помощью следующей команды.
transeq x65923.fasta x65923.pep -table 0
|
В данной случае использовалась стандартная таблшица генетического кода (-table 0).
Получен следующий файл: x65923.pep
5) C помощью команды transeq транслировать данную нуклеотидную последовательность в
шести рамках.
Для анализа был использован тот же файл, что и 4 пункте.
transeq x65923.fasta x65923.pep -table 0 -frame 6
|
С помощью вышеописанной команды был получен файл x65923_6.pep
с трнасляциями исходного по всем 6 рамкам.
6) C помощью команды seqret перевести выравнивание из fasta формата в формат .msf.
Выравнивание в формате fasta
seqret allign.fasta msf::allign.msf
|
Полученное выравнивание в формате msf
7) C помощью команды infoalign необходимо выдать в выходной поток число совпадающих
букв между второй последовательностью выравнивания и всеми остальными.
infoalign allign.msf -refseq 2 -only -idcount -name stdout
|
Ниже показан скрин выходного потока после применения команды
![](ex_7.png)
8) С помощью команды featcopy необходимо перевести аннотации
особенностей в записи формата .gb в табличный формат .gff.
Использовался файл.
featcopy sequence1.gb sequence1.gff
|
С помощью вышеописанной команды был получен файл sequence1.gff
9) С помощью команды extractfeat из данного файла с хромосомой в формате .gb необходимо получить
fasta файл с кодирующими последовательностями.
Была взята следующая последовательность хромосомы
extractfeat sequence1.gb ex_9.fasta -type CDS -describe product
|
В результате применения этой команды получен выходной файл
10) С помощью команды shuffle перемешать буквы в данной нуклеотидной последовательности.
Была взята следующая последовательность, часть хромосомы
Saccharomyces cerevisiae.
shuffle -o ex_10.fasta -n 1 random.fasta
|
В результате был получен файл.
Если проверить с помощью blastn число "достоверных" находок, то обнаруживается, что таковых нет.
(E-value больше 0,1 везде) (Рис.1.)
![](ex_10.png)
Рис.1. Находки blastn по перемешанной последовательность
11) С помощью команды cusp найти частоты кодонов в данных кодирующих последовательностях.
Для анализа использовался файл, полученный в результате выполнения 9 пункта.
cusp ex_9.fasta ex_11.fasta
|
В результате выполнения этой команды был получен следующий файл
12) С помощью команды compseq необходимо найти частоты динуклеотидов в данной нуклеотидной
последовательности и сравнить их с ожидаемыми.
Файл для анализа тот же, что и в 10 пункте.
compseq random.fasta ex_12.fasta -word 2
|
В результате этой команды получен файл с частотами динуклеотидов
в 3-ем столбце и отношением ожидаемых частот к наблюдаемым в 5-ом.
13)C помощью команды tranalign необходимо выровнять кодирующие
последовательности соответственно выравниванию белков - их продуктов.
С помощью программы Mega7 было сделано выравнивание для белков (ну так быстрее, в моем случае).
На вход подвались последовательности нуклеотидов и
белковое выравнивание.
tranalign all.fasta protein_align.fas ex_13.fasta -table 0
|
В итоге был получен файл с выравниванием.
Задание 2а
В этом задании для двух геномов необходимо построить карту локального
сходства и опишите крупные эволюционные события на пути от общего предка.
Для этого я отметила галочкой Align two or more sequences в
интерфейсе запуска BLAST и ввела в поля последовательности геномов двух сравниваемых организмов.
Сравнивались две археи - Halobacterium salinarum R1 и Halobacterium sp. JI20-1.
Для них была получена карта локального сходства, изображенная на Рис.2.
![](appear.jpg)
Рис.2. Колонии Halobacterium salinarum, растущие на чашки Петри с добавлением соли
Данные организмы живут в достаточно экстремальных условиях, как и многие археи. Это позволяет
предположить у них быструю эволюцию генома и значительное число перестроек.
Последовательность Halobacterium salinarum R1,
последовательность Halobacterium sp. JI20-1
![](halob_dot.png)
Рис.3. Карта локального сходства для Halobacterium salinarum R1 и Halobacterium sp. JI20-1
И на первый взгляд видно, что достаточно много участков лежат на главной диагонали, так что геномы
достаточно гомологичный, чтобы имело смысл их сравнивать по картам локального сходства.
![](halob_dot_with.png)
Рис.4. Карта локального сходства для Halobacterium salinarum R1 и Halobacterium sp. JI20-1 c
разметкой описываемых событий
Таблица 1. Характеристики выдачи blast для
Halobacterium salinarum R1 и Halobacterium sp. JI20-1 |
Query cover | Ident | E-value |
55% | 82% | 0.0 |
На Рис.4. отмечены некоторые события, отражающие перестройки генома, произошедшие в процессе индивидульной
эволюции этих бактерий. Видна тенденция к инверсиям (крупных их здесь не меньше 8), а также к
последующим обратным инверсиям.
Событие по номером 4 - типичная инверсия (красными стрелками на отмечены противоположные направления
участков 2-х геномов). Под номером 1 2 события. Сначала произошла одна инверсия (
её можно определить по 2-м участкам противоположной направленности), а потом инверсия участка первой
инверсии (участок той же направленности, что и диагональ, но со смещением). События под номерами
2 и 3 можно интерпретировать по-разному. Либо так, что 2 - это транслокация, либо как то
что все событие 3 - это две последовательные инверсии (просто более старые, чем 1), это, мне кажется,
более реалистичное объяснение.
Однако, здесь нет вставок, а инверсий много, и они очень красивые, поэтому я решила сделать сравнение
еще двух других геномов.
Это Streptococcus pyogenes HKU488 и Streptococcus pyogenes SF370. На Рис.5. их
карта локального сходства.
Последовательность Streptococcus pyogenes M1 GAS,
последовательность Streptococcus pyogenes HKU488.
![](strep_dot.png)
Рис.5. Карта локального сходства для Streptococcus pyogenes HKU488 и Streptococcus pyogenes M1 GAS c
разметкой описываемых событий
Таблица 2. Характеристики выдачи blast для
Streptococcus pyogenes HKU488 и Streptococcus pyogenes M1 GAS |
Query cover | Ident | E-value |
92% | 99% | 0.0 |
Событие 1 можно интерпретировать по-разному, однако мне наиболее вероятным кажется такое объяснение.
Сначала произошла очень крупная инверсия (её остатки как раз и есть участки под номерами 1), а
потом произошла инверсия меньше. Это достаточно давние события, поэтому после последней меньшей инверсии
на этом участке произошло еще несколько вставок/делеций.
Событие 3 и аналогичные ему - это вставка в геноме по вертикальной оси или делеция во втором.
Событие 2 и аналогичные ему - это вставка в геноме по горизонтальной оси или делеция во втором.
Задание 2а(*)
В дополнительном задании необходимо найти источник одной крупной вставки.
Есть дерево 3-х видов стрептококков:
tree.pdf
На Рис. 6 отдельно ветка для исследуемых видов.
![](short_tree.png)
Рис.6. Отдельная ветвь дерева с интересуемыми штаммами
Попробуем сравнить 4 штамма - M1_476 (как близкий к HKU488), HKU499, AP1 (как близкий к M1 GAS),
M1 GAS.
Последовательность Streptococcus pyogenes M1_476,
последовательность Streptococcus pyogenes AP1.
Рис.7. По вертикальной оси, как и на Рис.5 HKU488, а по вертикальной M1_GAS
|
Рис.8. По вертикальной оси штамм M1_476, по горизонтальной HKU488
|
Как видно из Рис.8, т.е. сравнения HKU488 с близким штаммом, в этом случае отмечается 2 крупные вставки
у HKU488 (или делеции у M1_476), идентичные таковым на Рис.7.. Это заставляет нас склоняться к
к варианту 2-х вставок у HKU488, чем к двум одинаковым делециям у не таких уж родственных штаммов.
Задание 2b
В этом задании необходимо построить нуклеотидный пангеном для
3-4 геномов близкородственных бактерий или архей.
Были взяты Streptococcus pyogenes MTB313,Streptococcus pyogenes MEW123,
Streptococcus pyogenes Manfredo, Streptococcus pyogenes M28PF1.
1. npge -g npge.conf
2. npge Prepare
3. npge Examine
4. npge MakePangenome > log
5. npge PostProcessing
|
Выше показаны использованный команды. Сначала был создан файл
genomes.tsv, с информацией откуда брать
последовательности геномных ДНК и аннотации генов. С помощью 1-ой команды был создан файл
npge.conf с параметрами, где можно их менять
для усовершенствования работы следующих команд. Далее командой 2 были скачаны и
переименованы геномные ДНК. 3-я команда создает папку examine с интересующим нас файлом
identity_recommended.txt, в соответствиии
с которым изменяется MIN_IDENTITY, в моем случае он предлагает 0,886, и именно такое значение
я и поставлю в файле npge.conf. При помощи 4-ой команды был получен нуклеотидный пангеном в файле
pangenome.bs, а протокол выполнения сохранен
в файле log.После выполнения 5 команды, было
получено много файлов с разной аналитической информацией. Далее было скачан gnpge с официального
сайта и в папку со всеми результатами скопирован файл gnpge.exe и затем открыт, это визуализация
пангенома.
Описание синтеничных участков (g-блоков)
Список глобальных блоков - синтений находится в файле
blocks.gbi, а п
оследовательность глобальных блоков в каждом геноме - в файле global-blocks/blocks.blocks
blocks.blocks.
Для удобства работы этот файл был транспортирован в Excel, и были выкинуты строчки, не содержащие
g-блоков.
Рис.9 Таблица выравнивания g-блоков
g-blocks.xlsx - таблица Excel.
Выше приведена таблица Excel с g-блоками, раскрашенными по описанным далее принципам.
Всего 16 g-блоков, только у 7 из них положение в 4-х геномах совпадает, а ведь это
бактерии одного вида, консервативные блоки отмечены рыжим цветов. Желтым цветом отмечены отмечены
2 группы блоков у всех геномов, так что у 2-х штаммов (M28PF1 и MEW123) их положение совпадает и
находятся они на двух концах генома, у Manfredo 2 блока из 6 (по одному блоку с 2-х концов) изменили
свое положение. А e MTB313 блоки поменяли свою последовательность на противоположную, т.е.
те, что у большинства в начале, у этого штамма в конце и в обратной последовательности.
На этой основе можно предположить изначально огромную инверсию, а потом реверсию меньшего участка
внутри инверсии (такие же явления описывались для других Streptococcus pyogenes
в прошлом задании. Однако у MTB313 и внутри этой меньшей последней инверсии происходили
изменения. Зеленым отмечены 2 блока, одинаково локализованные у M28PF1 и MEW123, но
вместе в другом месте у MTB313, можно предположить траснлокацию этих двух блоков у MTB313 вместе.
(у Manfredo они совсем по-другому расположены и разделены).
Уже на данном этапе можно предположить большую близость M28PF1 и MEW123, так как у них все блоки
расположены одинаково.
Рис.10. Фрагмент выравнивания g-блоков из визуализатора gnpge
На Рис.10. изображен фрагмент выравнивания, однако, не вижу смысла в каких-либо комментариях, потому что
полное выравнивание аналогично такому в Excel.
Описание ядра пангенома (объединение s-блоков)
Информация содержится в файле pangenome.info.
В данном файле s-блоки - это "Exact stem blocks".
- Число блоков - 139
- Размер ядра - 74,91% (процент входных последовательностей, вошедших в s-блоки)
- Сходство геномов - 0,984675 (идентичность объединенных s-блоков
Описание повторов (r-блоков)
Рис.11 Выравнивание r20x237, полученное в gnpge, но визуализованное в Jalview (просто не поняла, как
картинку из gnpge сохранять)
Данный повтор встречается у двух штаммов: MEW123 (13 раз) и M28PF1 (7 раз).
Таблица 3. Характеристики блока r20x237 |
Число повторений | Длина | Идентичность | %GC | Число генов |
20 (13 у MEW123, 7 у M28PF1) | 237 | 99,15% | 44,15 | 20 (т.е. по одному в каждом повторе) |
Gnpge определил ген в этом повторе: CDS ABO05_02780_ABO05_02780 XRE family transcriptional regulator (M28PF1) и
CDS AWM59_02820_AWM59_02820 XRE family transcriptional regulator (MEW123).
Поиск Blast по этому названию выдает огромное количество результатов для разных организмов, т.е.
это очень распространенный и консерватинвый транскрипционный фактор, только у самих Streptococcus pyogenes
4570 результатов.
Рис.12. Пример стуктуры XRE family transcriptional regulator
На Рис.12 показаны типичная стуктура XRE family transcriptional regulator.
Рис.13. Таблица с примерами транскрипционных регуляторов из XRE family
[1]
Рис.14. Таблица с характеристиками YqaE, транскрипционного регулятора из XRE family
[2]
На Рис.14. приведена таблица для транскрипционного регулятора YqaE, он является отрицательным
репрессором гена sigK - фаговый элемент у Bacillus subtilis
[3].
По тому, что он регулирует у Streptococcus я литературы не нашла.
Пример крупной делеции (делеция - в геномах, не вошедших в h-блок
Например, делеция h3x8372.
Таблица 4. Характеристики блока h3x8372, крупной делеции у Manfredo |
Длина | Идентичность | %GC | Число генов |
8372 | 99,17% | 36,73 | 27 (т.е. в среднем 9 на каждый штамм) |
Gnpge определил по гену для всех 3-х видов: CDS ABO05_02970_ABO05_02970 RNA helicase (M28PF1) (2649 bp),
CDS AWM59_03005_AWM59_03005 CRISPR-associated helicase Cas3 (MEW123) (2649 bp),
CDS MTB313_1308 valyl-tRNA synthetase (MTB313) (2649 bp).
Эта делеция у Manfredo локализована у g-блоке g4x183859, который расположен в одном и том же месте
в геномах всех 3-х штаммов.
Пример последовательности имеющейся только в одном геноме
Последовательности, присутствующие только в одном геноме - u-блоки, например u1x621, который есть только
у штамма M28PF1.
u1x621.txt